Drying up the data swamp - Vernetzung von Daten mittels iQser GIN Server

نویسنده

  • Florian Pfleiderer
چکیده

In vielen Unternehmen laufen heute heterogene Daten aus vielfältigen Quellen in Data Lakes zusammen, die immer mehr zu Data Swamps verkommen. Oft ist nicht bekannt, was sich in den zahlreichen Datentöpfen befindet und in welcher Qualität die Daten tatsächlich vorliegen. Typische Big Data Technologien wie zum Beispiel Hadoop alleine bieten kaum eine Möglichkeit, diesem Chaos Herr zu werden. Immer mehr Firmen zeigen daher Interesse an kompletten Lösungen, statt eigene Lösungen aufwändig aus einzelnen Technologien zusammen zu stellen. Die iQser GmbH entwickelt mit dem GIN Server eine solche Lösung, die unterschiedliche Ansätze des Data Engineering kombiniert, um verschiedenste Problemstellungen der semantischen Datenanalyse lösen zu können. Um aus einem Mix von strukturierten und unstrukturierten Daten Informationen gewinnen zu können, werden Daten und Dokumente basierend auf ihren Inhalten mithilfe qualifizierter Relationen automatisch vernetzt. Der hierbei entstehende Graph ist die Basis für die Schöpfung von neuem Wissen aus vorher unbekannten Daten. Solche Daten können nicht immer im Vorfeld klassifiziert oder auf bestimmte Arten modelliert werden, da hierfür das notwendige a-priori Wissen über die Inhalte der Daten fehlt oder zu aufwändig zu erlangen ist. Dies betrifft insbesondere die Erstellung von Ontologien im Sinne des Semantic Web oder Open Linked Data. Hier geht die Lösung von iQser einen anderen Weg und erzeugt in einem Bottom-Up-Ansatz aus den Daten selbst ein Modell über eine automatische semantische Vernetzung. In dem Vortrag wird erklärt, welche Ziele mit der Entwicklung des GIN Servers verfolgt wurden, umOrdnung in einemData Swamp zu schaffen, in demmehrDaten nicht immermehr Nutzen bedeuten, weil es immer schwerer wird diese zu korrelieren und ordnen zu können. Es wird darauf eingegangen, welchen Herausforderungen man sich bei der Entwicklung einer solchen Lösung stellen muss, welche Erfahrungen gemacht und Erkenntnisse hierbei gewonnen wurden und warum ein Schritt weg von einer Batch-Verarbeitung und hin zu einem Streaming-basierten Ansatz es der Anwendungsarchitektur ermöglicht hat, Ziele besser zu erreichen. 1 dibuco GmbH, Franz-Schubert Str. 75, 70195 Stuttgart, [email protected]

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Integriertes Tiergesundheitssystem "Klassifizierung von Tierhaltern und Tierärzten hinsichtlich der Vernetzung tiergesundheitsrelevanter Daten

Das integrierte Tiergesundheitssystem zielt auf eine Verbesserung der Tiergesundheit durch Datenaustausch und Dokumentation von tiergesundheitsrelevanten Daten zwischen Tierhaltern und praktizierenden Tierärzten. Mittels Clusteranalyse wurden Tierhalter und Tierärzte entsprechend ihren Einstellungen zu den Anwendungen des Tiergesundheitssystems charakterisiert. Der Beitrag beschreibt die Unters...

متن کامل

Ein Umweltwissenssystem zur semantischen Vernetzung forstwirtschaftlicher Datenquellen

Der Beitrag fokussiert den Einsatz von „Intelligenten Systemen“ zur Zusammenführung von Umweltinformationen durch die Verwendung von semantischen Technologien wie etwa Linked (Open) Data hin zu Umweltwissen. Dieses Umweltwissen kann in der Konsequenz z.B. zur Entscheidungsunterstützung der forstwirtschaftlichen Nachhaltigkeit durch die betroffenen Stakeholder verwendet werden. Die zugrunde lieg...

متن کامل

Extrahierung bibliographischer Daten aus dem Internet

Im Projekt FIS-I, das vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wird, soll der Zugriff auf Informatik-Literatur zentralisiert werden. Die Projektpartner Universtät Karlsruhe (Collection of Computer Science Bibliographies) und TU München(LEABiB) stellen hierfür die bibliographischen Daten bereit. In diesem Beitrag werden die praktischen Erfahrungen vorgestellt, die bei der...

متن کامل

Cloud-Services und effiziente Anfrageverarbeitung für Linked Open Data

Der Verbreitungsgrad von Linked Open Data hat in den letzten Jahren massiv zugenommen. Stetig erscheinen neue Quellen, die RDF-Daten frei zur Verfügung stellen. Aktuell diskutiert die Bundesregierung über ein neues Gesetz, welches zur Offenlegung von Daten der öffentlichen Hand verpflichtet. Durch diese Maßnahme, steigt u. a. die Menge an Linked Open Data sehr schnell an. Es werden neue Verfahr...

متن کامل

Datenintegration im Web mit vernetzten Daten

Das Tutorial gibt einen Überblick über Inhalte und Techniken von vernetzten Daten (Linked Data). Das World Wide Web entwickelt sich von einem Medium der Dokumente zu einem Medium der Daten. In den letzten Jahren werden vermehrt Daten nach den von Tim Berners-Lee postulierten ”Linked Data” Prinzipien veröffentlicht, von Organisationen wie der Deutschen Nationalbibliothek oder der New York Times ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2017